本文是学习GB-T 15387.2-2014 术语数据库开发指南. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们
GB/T 15387
的本部分规定了术语数据库(简称"术语库")术语条目的结构、术语库的功能、术语数
据规范化、术语库扩充等内容。
本部分适用于术语库的研究、开发、维护及其管理工作。其他涉及术语数据库的工作也可参照
使用。
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 3792.1 文献著录 第1部分:总则
GB/T 3860 文献主题标引规则
GB/T 8566 信息技术 软件生存周期过程(ISO/IEC 12207:1995、ISO/IEC
12207:1995/Amd.
1:2002 、ISO/IEC 12207:1995/Amd.2:2004,MOD)
GB/T 13418 文字条目通用排序规则(neq ISO 7154:1983)
GB/T 13725—2001 建立术语数据库的一般原则与方法
GB/T 13745 学科分类与代码
GB/T 15237.1—2000 术语工作 词汇 第1部分:理论与应用
GB/T 15387.1—2014 术语数据库开发文件编制指南
GB/T 16786—2007 术语工作 计算机应用 数据类目(ISO 12620:1999,NEQ)
GB/T 17532—2005 术语工作 计算机应用 词汇(ISO 1087-2:2000,MOD)
GB/T 15237.1—2000、GB/T 16786—2007、GB/T 17532—2005
界定的术语和定义以及下列术语
和定义适用于本文件。
3.1
术 语 term
在特定专业领域中一般概念的词语指称。
[GB/T 15237.1—2000,定义3.4.3]
3.2
数 据 库 database
按照预定结构组织成的数据集合。
[GB/T 17532—2005,定义7.5]
3.3
术语数据库 terminological database
包含术语数据的数据库。
GB/T 15387.2—2014
[GB/T 17532—2005,定义7.6]
3.4
数据元 data element
在一定的上下文中具有不可分割的数据单元。
[GB/T 17532—2005,定义7.11]
3.5
记录 record
作为一个单位来对待的数据元的集合。
[GB/T 17532—2005,定义7.9]
3.6
数据字段 data field
为特定的数据元而保存在一个记录中的变长或定长的部分。
[GB/T 17532—2005,定义7.12]
3.7
数据类目 data category
数据元类型 data element type
关于给定数据字段的类型说明。
[GB/T 17532—2005,定义7.14]
3.8
标识符 identifier
用于标识或命名某个数据类目的一个或多个字符。
[GB/T 17532—2005,定义7.15]
3.9
术语条目 terminological entry
术语数据集合中所包含的与一个概念相关的术语数据。
[GB/T 17532—2005,定义3.22]
在术语库中,根据不同的使用目的、每个术语条目由描述该术语的一组数据元构成。所有术语条目
中具有相同元属性的数据元形成数据字段。
应根据术语库应用的需求确定字段数量,既要按照规范化的要求,最大程度地满足用户需要,又要
避免浪费。
字段名称应使用易记、易识别的字符串,如拼音或对应的英文单词,或者其简写。
示例1:
字段名称:序号(xuhao/number)
缩写:xh(汉语拼音)或 No.(英语)
示例2:
字段名称:定义(dingyi/definition)
GB/T 15387.2—2014
缩写:dy(汉语拼音)或 def(英语缩写)
字段标识符可使用字母或数字,以字母开头,可使用下划线。字段标识符及其编制原则与方法,应
在提供给用户的文件中注明。
可以是汉字、字母、数字、特殊符号等。术语、定义等应使用字符型字段。
可以是整数、小数、正数和负数等。序号等应使用数字型字段。
日期型数据字段结构为:CCYYMMDD。
示例:20010515 表示2001年5月15日。
术语源的生成日期(例如标准发布日期、辞书出版日期等)、术语记录的生成日期等应使用日期型
字段。
术语数据还可能涉及其他字段数据类型,例如逻辑数据类型等。
术语库应尽可能使用变长字段,使用定长字段时应考虑使用方便及节约存储空间等因素。
根据术语数据元之间关系的特点,字段间的关系可以是一对— (1:1)、
一对多(1: N) 或多对多关
系(M:N)。
字段的强制级别,应根据该术语库的使用目的而确定。
当术语数据类目是构成术语条目所必备的最小信息时,使用此类字段。例如,面向概念的术语库中
的"术语""定义"等;面向翻译的术语库中的"术语""外文对应词"等。每个术语库都应设立必选字段,且
不允许空缺。
当术语数据类目是构成术语条目所必要的信息时,使用此类字段,但允许空缺。例如,面向翻译的
术语库中的同义词、术语的缩略形式等。
GB/T 15387.2—2014
当术语数据类目并非是构成术语条目的必要信息时,使用此类字段。例如,词性语法信息、语境等。
当属于相同的术语数据类目的术语数据元(如同义词)需要在一个记录中出现几次时,可重复使用
同一字段。
术语库中,任意个数据字段可根据需要进行组合,构成新的条目。
不同记录之间(如一条术语参照另一条术语)、不同的文件之间(如主文件与倒排文件)、不同数据库
之间(如图形数据库与文本数据库之间,不同语种数据库之间)均宜相互关联参见。
术语库应能提供良好的文字处理环境和友好的用户界面。界面应具备下列功能。
使用者通过键盘或其他输入设备向机器输入提问、控制或其他有关信息,机器通过显示屏幕或其他
输出设备给使用者提供解答、提示或其他有关信息。
应根据需要设置系统管理和用户查询使用的不同选单,应设计一个选单系统为用户显示多重选择,
根据需要可设计多级选单。
示例:
一级选单:主功能选择。例如数据输入、数据维护与更新、数据检索、排序和打印等;
二级选单:子功能选择,单项功能中的子项、条件等。例如数据检索功能中的浏览、设定检索式、显示检索结果等;
三级选单:需要设计的下一层细化功能选择。
提示的内容主要包括:
—— 出错提示:指示错误的性质和类型,以至于如何改正;
— 拒绝接收提示:指示、告警无效或错误的操作;
——操作步骤提示。
求助功能可使用窗口技术或调用辅助库,辅助屏予以实现,此状态应易于进入和退出、返回原操作
状态。主要包括:
GB/T 15387.2—2014
——正确操作的具体、详细的说明;
——有关内容的资料,如出现的代码及其含义说明;
——有关屏幕显示内容的解释,参数值的含义与范围,命令或功能选择描述。
为满足用户操作所提供的其他功能,如浏览等。
术语库除应能检索单一术语及相应信息(定义、外文对应词等)外,还应根据需要设计下列几种类型
的检索。
根据分类语言、叙词语言进行检索。分类语言检索得出的是适合某一分类的某一领域内成体系的
全部术语;叙词语言检索出的是某一术语可能涉及的所有术语,包括其他领域内的相关术语。
主要包括:
——按术语源书目编目数据检索出该文献所包含的所有术语;
——按源机构(或责任者)检索出该机构所编纂(制定)的所有术语;
——按年代检索出术语编纂的年度变化情况。
主要包括同属性或不同属性的组合检索。检索技术应满足GB/T 13725—2001
中8.2的规定。
应设计查重功能,数据校验功能应按GB/T13725—2001 中8.1.2的规定设计。
根据需要,设计数据库重组功能,自动的回收已删除记录所占的存储空间,并重新加以利用。
必要时,可改变存取控制、硬件配置、数据库分布以及修改数据结构等。
应支持术语库的恢复、备份和重新启动。由于误操作、程序出错或其他意外原因(例如掉电)需要重
新启动时,使用备份。
由于人为或意外原因造成术语库的破坏时,应能:
a) 查明错误的原因;
b) 查明错误的影响;
c) 纠正错误;
d) 纠正后继续工作。
应按照GB/T 13725—2001
中8.1.3的要求根据需要定义默认值,便于字段内容的自动或半自动生
GB/T 15387.2—2014
成与修改。
应根据需要设计数值处理功能,例如,术语和定义的平均长度、某一长度的术语数量及百分比、年术
语生成量和使用量、某一用户使用术语库的情况、某一机构编纂术语的情况等。
数据排序应符合GB/T 13418 的规定。
根据需要设计排序和打印功能以满足下列要求:
a) 应能生成和打印按概念体系排序的术语词汇或词典;
b)
应能生成和打印按外文字母顺序或汉语拼音排序的英-汉、汉-英对照词汇或词典,或其他外语
与汉语对照词汇或词典;
c) 应能生成和打印同义(近义)词汇或词典;
d) 应能生成和打印反义词汇或词典;
e)
如果需要,还应能生成语料的有关信息,例如,按术语使用频率排序、按术语与其他术语组配频
率排序等;
f) 其他功能。
应能提供某种常用程序设计语言的接口,允许使用该程序设计语言编写自己的应用程序,开发某些
特殊功能。
应能实现网络查询,数据搜索和数据下载等网络应用的基本功能。
其他功能包括:
a) 数据输入应符合GB/T 13725—2001 中8.1的规定;
b) 数据显示应符合GB/T 13725—2001 中8.3的规定;
c) 数据安全性和保密性应符合 GB/T 13725—2001 中6.1.7和8.6的规定;
d) 数据传递和数据交换应符合 GB/T 13725—2001 中7.7和第10章的规定。
应从需要和可能两个方面,并根据GB/T13725—2001
中7.2.1的规定,确定数据采集的要求。
数据采集需求包括:
a) 拟收录术语的范围及总数量(可分期安排);
b)
拟使用的语种及使用程度(如是仅收录相应语种的外文对应词,还是也收录该术语的定义、同
GB/T 15387.2—2014
义词等其他数据);
c) 拟确定的数据类目。
主要内容包括:
a) 术语源的类型,例如标准、百科全书、词典、专业文献等;
b) 术语源的权威性、充足性;
c) 专家构成,包括专业领域的专家、术语学家、语言学家等;
d) 工作人员水平,包括专业水平、外语水平等;
e) 应根据GB/T 15387.1—2014 中5.14~5.16的规定编写数据加工技术规则;
f) 应根据GB/T 15387.1—2014 中5.18的规定编写数据加工工作规程;
g)
应规定数据验收标准和验收方式,包括对各项数据和各加工过程的质量要求、检验方法、依据
和程序等。
确定数据采集的统一格式(采集卡片或工作单),并根据该格式收集、挑选、登录数据。该格式应满
足术语库对数据的要求,并与术语库结构一致。
为了便于标引工作和国内外术语数据的交换,应根据所属的学科领域,尽量采用以下通用的分类
法。如:
a) 国际标准分类法(ICS);
b) 中国标准文献分类法(CCS);
c) 按 GB/T 13745 所确立的学科分类与代码。
为了表示某一概念主题特性,可使用以下叙词检索语言。如:
a) 汉语主题词表及与其兼容的有关专业性主题词表;
b) 标准文献主题词表(ROOT THESAURUS)。
标引原则:
a)
对于通用、基础性术语或选自综合性文献的术语应根据该术语的分类和定义的主题特性进行
标引;
b)
某些术语条目的分类标引和叙词标引也可以采取与数据源一致的方法,某一术语条目取自某
一术语标准,则该条目的分类标引和叙词标引与该标准一致;
c)
多重标引。某一概念属于若干个专业领域时,或术语库需要同时使用多种分类法和叙词表时,
需重复标引。
应符合GB/T3860
的规定,分类标引的内容包括分类法的源码、该术语(或数据源)所属专业领域
GB/T 15387.2—2014
的分类代码及专业领域名称。
示例1: GB/T 13745(源码)520.4050(分类代码)×××数据库(专业领域名称)。
示例2: UDC (源码)681.3.01(分类代码)×××数据处理原理(专业领域名称)。
叙词标引的内容包括叙词表的源码、叙词代码及叙词。
示例3: ISO-ROOT (源码)MJG.JM (叙词代码)×××数据库(叙词)。
应向用户提供所使用的分类法和叙词表以及标引规则说明,必要时,还应提供不同分类法和叙词表
的对照(或转换)说明。
术语库中所使用的代码(例如,语种代码、学科代码、源码、责任者机构代码等)应符合相应的国家标
准;如无国家标准可参照时,可自行定义,但应在向用户提供的技术文件中详细说明。必要时,建立辅助
的代码数据库,供用户随时查询。
应规定统一的著录项目、规则和格式以及编写著录细则。
术语条目著录应符合GB/T 3792.1及相关国家标准的规定。
下述情况可能需要扩充术语库:
a) 增加新的专业领域;
b) 增加新语种;
c) 增加新的数据类目;
d) 增加新条目;
e) 增加新的数据类型(如图、公式、特殊符号等);
f) 增加新功能;
g) 改变软、硬件配置,变换机型;
h) 数据传递,数据转换等。
术语库开发要求还包括:
a) 建库过程与工作步骤应符合GB/T 13725—2001第7章的规定;
b) 术语库计算机系统应符合 GB/T 13725—2001 中6.2的规定;
c) 术语库有关的软件开发,应符合GB/T 8566 的规定;
d) 术语库开发过程中需编制有关技术文件,文件内容及编写要求应遵照 GB/T
15387.1—2014 的规定;
e) 少数民族语言文字的术语库应尽可能利用拉丁文转写,以便于使用;
f) 建立术语数据库常用的国家标准和国际标准参见附录 A。
GB/T 15387.2—2014
(资料性附录)
建立术语数据库常用的国家标准和国际标准
A.1 术语工作
A.1.1 国家标准
GB/T 3792.1 文献著录 第1部分:总则
GB/T 3860 文献主题标引规则
GB/T 4880.2 语种名称代码 第2部分:3字母代码
GB/T 10112 术语工作 原则与方法
GB/T 13190 汉语叙词表编写规则
GB/T 13418 文字条目通用排序规则
GB/T 13715 信息处理用现代汉语分词规范
GB/T 13725 建立术语数据库的一般原则与方法
GB/T 15237.1 术语工作 词汇 第1部分:理论与应用
GB/T 15238 术语工作 辞书编纂基本术语
GB/T 15387.1 术语数据库开发文件编制指南
GB/T 15417 文献 多语种叙词表编制规则
GB/T 15625 术语数据库技术评价指南
GB/T 15933 辞书编纂常用汉语缩略语
GB/T 11617 辞书编纂符号
GB/T 16785 术语工作 概念与术语的协调
GB/T 16786 术语工作 计算机应用 数据类目
GB/T 17532 术语工作 计算机应用 词汇
GB/T 18155 术语工作 计算机应用 机器可读术语交换格式(MARTIF) 协商交换
GB/T 20001.1 标准编写规则 第1部分:术语
A.1.2 国际标准
ISO 860 术语工作 概念和术语的统一
ISO 10241 标准中的术语条目(系列标准)
ISO 12200 术语中的计算机应用 可机读术语转换格式(MARTIF) 谈判交换
ISO12620
术语、其他语言和内容资源.语言资源用数据目录登记的数据目录和管理规范
A.2 字 符 集
A.2.1 国家标准
GB/T 1988 信息处理 信息交换用七位编码字符集
GB/T 2311 信息处理 七位和八位编码字符集代码扩充技术
GB 2312 信息交换用汉字编码字符集 基本集
GB/T 15387.2—2014
GB/T 6513 文献书目信息交换用数学字符编码字符集
GB/T 7589 信息交换用汉字编码字符集 第二辅助集
GB/T 7590 信息交换用汉字编码字符集 第四辅助集
GB 8045 信息处理 交换用蒙古文七位和八位编码图形字符集
GB/T 8565 信息处理(所有部分) 文本通信用编码字符集
GB/T 11383 信息处理 信息交换用八位代码结构和编制规则
GB 12050 信息处理 信息交换用维吾尔文编码图形字符集
GB 12052 信息交换用朝鲜文字编码字符集
GB/T 12345 信息交换用汉字编码字符集 辅助集
GB 13000 信息技术通用多八位编码字符集(UCS)
GB/T 13131 信息交换用汉字编码字符集 第三辅助集
GB/T 13132 信息交换用汉字编码字符集 第五辅助集
GB 13134 信息交换用彝文编码字符集
GB/T 13141 书目信息交换用希腊字母编码字符集
GB/T 13142 书目信息交换用拉丁字母代码字符扩充集
A.2.2 国际标准
ISO 5427 文献目录信息交换用斯拉夫字母编码字符集的扩充
ISO 6438 文 献 文献目录信息交换用非洲字母编码字符集
ISO 6630 文献 目录的管理用字符集
ISO 6861 信息和文献 目录信息交换用格拉哥里(Glagolitic)字母编码字符集
ISO/IEC 8859 信息技术 8位单字节编码图形字符集(系列标准)
ISO 8957 信息和文献 目录信息交换用希伯来字母编码字符集
A.3 代码与数据元的表示
A.3.1 国家标准
GB/T 2659 世界各国和地区名称代码
GB/T 3304 中国各民族名称的罗马字母拼写法和代码
GB/T 3469 信息资源的内容形式和媒体类型标识
GB/T 4880(所有部分) 语种名称代码
GB/T 4881 中国语种代码
GB/T 7156 文献保密等级代码与标识
GB/T7408 数据元和交换格式 信息交换 日期和时间表示法
GB/T 13745 学科分类代码
A.3.2 国际标准
ISO 6093 信息处理 信息交换用字符串的数值表示
ISO/IEC 6523 信息技术 组织和组织各部分标识用的结构(系列标准)
ISO/IEC 7064 信息技术 安全技术 校验字符系统
GB/T 15387.2—2014
A.4 字符转写
ISO9 信息和文献 从西里尔字符到拉丁字符的译音 斯拉夫语和非斯拉夫语
ISO 233 信息和文献 从阿拉伯字母到拉丁字母的译音
ISO 259 信息和文献 从希伯来字母到拉丁字母的译音
ISO 843 信息和文献 希腊字符对拉丁字符的转换
ISO3602 文献 日文的罗马字体(假名手写体)
ISO 7098 信息和文献 汉语拉丁化
ISO 9984 信息和文献 从乔治亚字符到拉丁字符的译音
ISO 9985 信息和文献 从亚美尼亚字符到拉丁字符的译音
A.5 系统开发
A.5.1 国家标准
GB/T 1526 信息处理
数据流程图、程序流程图、系统流程图、程序网络图和系统资源图的文件
编制符号及约定
GB/T 8566 信息技术 软件生存周期过程
GB/T 8567 计算机软件文档编制规范
GB/T 9385 计算机软件需求规格说明
GB/T 9386 计算机软件测试文件编制规范
GB/T 12504 计算机软件质量保证计划规范
GB/T 15205 计算机软件配置管理计划规范
A.5.2 国际标准
ISO/IEC-6592 信息技术 计算机应用系统文件导则
A.6 其他相关标准
A.6.1 国家标准
GB/T 5271 数据处理词汇(部分)
GB/T 9387 信息处理系统 开放系统互连 基本参考模型(第2部分和第4部分)
GB/T 14814 信息处理 文本和办公系统 标准通用置标语言(SGML)
A.6.2 国际标准
ISO/IEC 8613 信息技术 开放文件体系结构(ODA) 和交换格式(系列标准)
ISO/IEC 8632 信息技术 计算机图形
存储和传送图片描述信息的元文卷(系列标准)
ISO/IEC 9066 信息处理系统 文本通信 可靠传送(系列标准)
ISO/IEC 9072 信息处理系统 文本通信 远距离操作(系列标准)
ISP/IEC TR 9294 信息技术 软件管理守则
ISO/IEC 9592 信息技术 计算机图形和图像处理
程序员分级交互图形系统(PHIGS) (系列标
准 )
GB/T 15387.2—2014
ISO/IEC 9593 信息处理系统 计算机图形 程序员分级交互图形系统(PHIGS)
语言联编(系列
标准)
ISO 9636 信息处理系统 计算机制图(系列标准)
ISO 9660 信息处理 信息交换用CD-ROM 的卷和文件结构
ISO/IEC 10021 信息技术 消息处理系统(MHS) (系列标准)
ISO/IEC 10027 信息技术 信息资源字典系统(IRDS) 框架
ISO/IEC TR 10032 数据管理参考模型
ISO/IEC 10166 信息技术 文本和办公系统 文件归档和检索(DFR) (系列标准)
更多内容 可以 GB-T 15387.2-2014 术语数据库开发指南. 进一步学习